Word Segmentation

释义 Definition

“Word segmentation”指将连续的文本切分成一个个词（token）的过程，常见于自然语言处理（NLP）。在中文、日文等词与词之间通常没有空格的语言中尤其重要。（该术语在不同任务中也可能泛指“分词/切词/词切分”。）

例句 Examples

Word segmentation is a key step in Chinese text processing.
分词是中文文本处理中关键的一步。

Accurate word segmentation can improve downstream tasks such as search, machine translation, and named entity recognition.
高质量的分词能提升检索、机器翻译和命名实体识别等下游任务的效果。

发音 Pronunciation (IPA)

/wɝːd ˌsɛɡmənˈteɪʃən/

词源 Etymology

“Segmentation”源自拉丁语 segmentum，意为“切片、分段”，来自动词 secare（切割）。与“word”组合后，字面意思就是“把文本按词进行切分”，在计算语言学与信息检索领域中逐渐固定为术语。

文学与著名作品 Notable Works

Speech and Language Processing（Dan Jurafsky & James H. Martin）：在分词/切分（含中文等语言场景）的章节与相关讨论中常出现该概念。
Foundations of Statistical Natural Language Processing（Christopher D. Manning & Hinrich Schütze）：涉及统计方法下的文本切分与相关建模思路（概念层面与分词密切相关）。
Neural Machine Translation by Jointly Learning to Align and Translate（Bahdanau et al., 2014）：虽更聚焦翻译，但在实际NMT管线中常与分词/子词切分一并讨论，语境中常出现“segmentation/word segmentation”等相关表达。

Word Segmentation

释义 Definition

例句 Examples

发音 Pronunciation (IPA)

词源 Etymology

相关词 Related Words

文学与著名作品 Notable Works